Big Data, Programa de Ciencia de los Datos

Proyecto Final

Entregable #1: Investigación preiminar


Objetivo

Aplicar técnicas para extracción, transformación, carga de datos realistas de la vida cotidiana y generar predicciones a partir de esos datos depurados.

Descripción general:

La realización de este proyecto busca que los estudiantes se expongan a las complejidades que implican obtener datos reales que provienen de múltiples fuentes. Se espera que realicen una investigación preliminar donde buscarán conjuntos de datos, abiertos o de su ámbito laboral, que provengan de múltiples fuentes. Posteriormente, deberán preprocesar e integrarlos de manera que puedan ser utilizados para propósitos analíticos y predictivos. Los resultados serán presentados en la clase final del módulo.


Opción #1


Glosario

fl_date: fecha del vuelo.
op_carrier: identificador de la aerolínea.
origin: código de aeropuerto de salida.
dest: código del aeropuerto de destino.
crs_dep_time: hora de salida planificada.
dep_time: hora real de salida.
dep_delay: retraso total a la salida en minutos.
taxi_out: el tiempo transcurrido entre la salida de la puerta del aeropuerto de origen y el apagado de las ruedas.
wheels_off: el momento en el que las ruedas de la aeronave abandonan el suelo.
wheels_on: el momento en el que las ruedas de la aeronave tocan el suelo.
taxi_in: la duración del tiempo transcurrido entre la puesta en marcha y la llegada a la puerta del aeropuerto de destino.
crs_arr_time: hora prevista de llegada.
arr_time: hora de llegada real = hora de llegada - llegada_programada.
arr_delay: retraso total a la llegada en minutos.
cancelled: vuelo cancelado (1 = cancelado).
diverted: aeronave aterrizó en un aeropuerto diferente al programado.
crs_elapsed_time: cantidad de tiempo planificada necesaria para el viaje de vuelo.
actual_elapsed_time: tiempo_aire + taxi_in + taxi_out.
air_time: la duración de tiempo entre wheels_off y wheels_on time.
distance: distancia entre dos aeropuertos.
severe-cold: el caso de tener una temperatura extremadamente baja, con temperatura por debajo de los -23,7 grados centígrados.
fog: el caso en el que hay una condición de baja visibilidad como resultado de la niebla o neblina.
hail: el caso de tener precipitaciones sólidas que incluyen gránulos de hielo y granizo.
rain: el caso de tener lluvia, que va de ligera a fuerte.
snow: el caso de tener nieve, que va de ligera a fuerte.
storm: la condición de mucho viento, donde la velocidad del viento es de al menos 60 km / h.
other precipitation: cualquier otro tipo de precipitación que no pueda asignarse a los tipos de eventos descritos anteriormente.
iata: código IATA de 3 letras, si está disponible.
icao: código ICAO de 4 letras, si está disponible.


Carga de modúlos, librerías y configuraciones necesarias

Carga de datos

Consulta y exploración de datos


Selección de datos


Visualización preliminar de datos



Conclusiones

Según el análisis realizado se puede concluir lo siguiente:


Opción #2


Glosario

species: las especies de coffea son arbustos o árboles pequeños nativos de África tropical y meridional y Asia tropical.
arabica: tipo de café producido a partir de un árbol de la especie botánica Coffea arabica.
robusta: tipo de café producido a partir de un árbol de la especie botánica Coffea canephora.
country of origin: el país en el que se ha cultivado la parcela de café exportada.
harvest year: período de 12 meses que comienza el primer día del mes en el que comienza la recolección de la cosecha.
variety: las diversas subespecies derivadas de la cría selectiva o selección natural de plantas de café.
processing method: diferentes formas de procesar el café, todas las cuales cambian el dulzor, el cuerpo y la acidez del café preparado.
aroma: aspecto olfativo del análisis sensorial del café, el aroma de cada café está compuesto por alrededor de 800 sustancias.
flavor: sustancia o extracto que aporta un sabor particular.
aftertaste: se refiere a los gustos y aromas que quedan en la boca tras la ingestión.
acidity: el nivel de ácido en las sustancias.
sweetness: un sabor básico que se percibe con mayor frecuencia al ingerir alimentos ricos en azúcares.
body: pretende explicar la textura de la bebida, va desde fina, delicada, jugosa, almibarada y pesada.
balance: los catadores profesionales usan el término para describir un café que no se localiza en ningún punto del paladar, no está desequilibrado en la dirección de alguna característica de sabor.
uniformity: la consistencia del gusto y el aroma.
clean cup: se refiere a un café libre de manchas y defectos.
cupper points: puntuación del café en una escala estandarizada, con puntos que suelen oscilar entre 6 y 10 en diez categorías diferentes, como fragancia / aroma, sabor, cuerpo, acidez y equilibrio, estos puntajes se suman para obtener un puntaje final, generalmente en el rango de 80-90.
moisture: agua u otro líquido difundido en una pequeña cantidad como vapor, dentro de un sólido o condensado en una superficie.
category defects: características / sensaciones gustativas del café desagradables (negativas) e irregulares.
quakers: granos sin madurar que son difíciles de identificar durante la clasificación manual y la inspección de los granos verdes.
color: representación del color de un grano de café, los diferentes tipos de granos de café tienen diferentes colores.
altitude mean meters: la altura promedio de un objeto o punto en relación con el nivel del mar o el nivel del suelo.


Carga de datos

Consulta y exploración de datos


Selección de datos


Visualización preliminar de datos



Conclusiones

Según el análisis realizado se puede concluir lo siguiente:


Código para generar PDF